在人工智能领域,序列建模将关注点从静态快照转向 时间流。标准机器学习任务通常假设数据点是 独立同分布(IID),即样本的顺序不会影响结果。
序列建模明确拒绝这一假设,聚焦于三大核心支柱:
- 违反 排列不变性:在表格数据中,列的顺序是任意的。而在序列中,顺序是首要特征。将“猫吃了老鼠”改为“老鼠吃了猫”,尽管词元相同,但会彻底改变 语义基础事实 ,这表明顺序至关重要。
- 自回归 特性:我们假设时间 $t$ 的观测值在数学上依赖于其历史($t-1, t-2, \dots, 1$)。这要求引入转移概率来捕捉信息的演化过程。
- 可变长度映射:与固定的 28×28 像素网格不同,句子或地震波等序列是 可伸缩的。模型必须以一致的参数处理长度为 $N$ 的输入并生成长度为 $M$ 的输出。